3d表示生成模型
综述报告
Deep Generative Models on 3D Representations
陈筱玥
背景&任务定义
关键概念
研究展望
B A C K G R O U N D
M E R T H O D S
C O N C E P T S
R E V I E W
A P P L I C A T I O N P R O S P E C T
学为人师行为世范
目录
C O N T E N T S
方法回顾
主流方法
应用场景
01
研究背景
T R A N S I T I O N P A G E
生成模型通过生成新的实例来学习观测数据的分布,这
些样本在统计上与原始数据样本相似。与传统的判别式
模型不同,生成式模型不仅可以分类或标记数据,还可
以生成新的数据点,以模仿输入数据的特征。3D生成模
型就是从现有的3D数据中学习,然后生成类似的三维对
象或场景。
生成式模型
1.深度学习的快速发展改变了计算机视觉任务,如物体识别、检测和图
像渲染,并对日常生活带来了改善。过去几年,深度生成模型在二维图
像合成方面取得了成功,但在一些现实场景中需要访问与物理图像形成
过程建模相关的3D信息。
2.与具有固有和有效表示(即像素网格)2D图像不同,表示3D数据更
加困难。理想情况下,健壮的3D表示应该能够准确地建模复杂的形状
和外观,同时高效地处理高分辨率数据
而现有的三维表示(点云、网格和神经场),往往不能同时满足所有这
些要求
3.虽然已有文献对生成模型,3D3D结构和人脸的生成进行了
一些调查,但对3D生成模型的全面综述仍然缺失。
研究背景
深度学习各方面:
[1] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature,2015.
[7] M. Oechsle, S. Peng, and A. Geiger, “Unisurf: Unifying neural implicit surfaces and radiance fields for multi-view reconstruction,”in
ICCV, 2021.
[10]D. Xu, D. Anguelov, and A. Jain, “Pointfusion: Deep sensor fusion for 3d bounding box estimation,in CVPR,
2018.
生成模型:
[15] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial
nets,” in NeurIPS, 2014.
[17] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” NeurIPS, 2020.
二维图像合成:
[14] A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, and M. Chen, “Hierarchical text-conditional image generation with clip latents,”arXiv
preprint arXiv:2204.06125, 2022.
[23] J. Yu, Y. Xu, J. Y. Koh, T. Luong, G. Baid, Z. Wang, V. Vasudevan,A. Ku, Y. Yang, B. K. Ayan et al., “Scaling autoregressive
models for content-rich text-to-image generation,” arXiv preprint arXiv:2206.10789, 2022.
3D开创性尝试:
[30] E. R. Chan, M. Monteiro, P. Kellnhofer, J. Wu, and G. Wetzstein,“pi-gan: Periodic implicit generative adversarial networks for
3daware image synthesis,” in CVPR, 2021.
[31] M. Niemeyer and A. Geiger, “Giraffe: Representing scenes as compositional generative neural feature fields,” in CVPR, 2021.
研究背景-相关研究
研究背景-相关研究
2D建模相关研究:
C L I P 对比性的语言-图像预训练模
H i e r a r c h i c a l te x t- c o n d i t i on a l
i m a g e g e n e r a t i o n w i t h c l i p
l a t e n t s
3D尝试:
将场景表示为合成生成神经特征场
G i r a f f e : Re p r e s e n t i ng s c e n e s
a s co m p o s i t i o na l g e n e r a t i v e
n e u r a l fe a t u re f i e l d s
1.全面回顾3D生成模型的持续发展,包括采用2D3D
督的方法。
2.集中分析生成模型,特别关注在这种情况下使用的表示
3.研究将帮助社区跟踪该领域的发展,并激发创新思想,
推动解决这一具有挑战性的任务
研究任务-目标
1.根据3D表示对生成模型进行分类3D表示
适合不同类型的生成模型。
2.基于监督信号对生成模型进行分类
3.定量比较不同3D生成模型的生成能力和效率
研究方法
三维生成模型管
1.训练网络的方法:重点关注了用于模拟目标3D样本数据分布的网络
训练方法,并支持用于合成3D2D
2.基于特定输入的条件生成方法:包括基于图像、点云或文本等特定输
入来预测条件概率分布的方法。这些方法旨在合成尊重输入的3D表示
,同时保留其代的多样性。
3.用于渲染的3D表示的方法虽然包括生成用于渲染的3D表示的方法
,但未对神经渲染方法领域进行详尽涵盖。
对现有关于2D生成模型和从3D数据中学习生成模型的研究的补充,弥
补之前的方法都没有对2D3D监督下学习的3D生成模型进行全面的调
查这一缺憾。
研究范围
02
关键概念
T R A N S I T I O N P A G E
3D表达方式
体素 Voxel Grids
体素是欧几里得结构的数据,按规则放置在 3D 空间中,类
似于 2D 空间中的像素。它们用作 3D 形状的表示,并且可
以存储各种类型的信息(RGB,纹理,空间密度)
局限:尽管体素网格非常适合 3D CNN,但使用神经网络
处理体素通常内存效率低下。
优点:由于体素网格的规律性,它们可以与标准卷积神经
网络很好地配合
[1] C. H ane, S. Tulsiani, and J. Malik, Hierarchical surface prediction for 3d object reconstruction,in 3DV, 2017.
[2] M. Tatarchenko, A. Dosovitskiy, and T. Brox, Octree generating networks: Efficient convolutional architectures for highresolution 3d outputs,in ICCV, 2017.
[3] G. Riegler, A. Osman Ulusoy, and A. Geiger, Octnet: Learning deep 3d representations at high resolutions,in CVPR, 2017.
[4] P.-S. Wang, Y. Liu, Y.-X. Guo, C.-Y. Sun, and X. Tong, Ocnn: Octree-based convolutional neural networks for 3d shape analysis,TOG, 2017.
3D表达方式
点云 Point Clouds
点云是 3D 空间中的一组非结构化点,表示 3D 形状表面的
离散采样。点云通常作为深度传感器的直接输出生成,这
使得它们广泛应用于各种 3D 场景理解任务。
局限:虽然它们很容易获得,但点云的不规则性使得它们
很难用现有的针对规则网格数据(例如图像)设计的神经
网络进行处理。
优点:容易从3d采样设备中获取,采样强度不大,成本低
3D表达方式
网格 Meshes
多边形网格是非欧几里得数据,表示具有顶点、边和面集
合的形状表面。使用几何形状拟合任意形状的平面,可以
用于任何场景以及物体的建模。
局限:将深度神经网络应用于网格比应用于点云更具挑战
性,因为除了顶点之外还需要考虑网格边缘。
优点:与体素相反,网格仅专注于对 3D 场景的表面进行建
模,使它们的表示更加紧凑。与点云相比,网格提供了表
面点之间的显式连接信息,从而可以对点之间的关系进行
建模。高内存效率,高时间效率,广泛研究和应用
图神经网络,可微Mesh渲染器
[1] M. M. Loper and M. J. Black, Opendr: An approximate differentiable renderer,in ECCV, 2014.
[2] N. Verma, E. Boyer, and J. Verbeek, “Feastnet: Feature-steered graph convolutions for 3d shape analysis,” in CVPR, 2018.
3D表达方式
神经场 Point Clouds
神经场是一种连续的神经隐式表示,包含使用神经网络对
场景或对象的完整或部分描述。对于 3D 空间中的每个位置,
神经网络将其相关特征(例如坐标)映射到属性(例如
RGB 值)。
局限:沿着所有光线采样导致极低的时间效率,渲染速度
优点:由于其表示的连续性,可以以任意分辨率表达未知
或复杂的拓扑。此外,其他相比,存储要求仅限于神经网
络的参数,从而与替代表示相比减少了内存消耗。并且极
其适合配合神经网络进行学习。
[1] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, and R. Ng, Nerf: Representing scenes as neural radiance fields for view synthesis,in ECCV, 2020.
3D表达方式-总结
[1] B. Yang, C. Bao, J. Zeng, H. Bao, Y. Zhang, Z. Cui, and G. Zhang, Neumesh: Learning disentangled neural mesh-based implicit field for geometry and texture editing,in ECCV,
2022.
[2] L. Liu, J. Gu, K. Zaw Lin, T.-S. Chua, and C. Theobalt, Neural sparse voxel fields,NeurIPS, 2020.
03
方法回顾
T R A N S I T I O N P A G E
深度生成模型
第一类由基于概率的模型组
成,其中包括变分自动编码
器(VA E
NF
D P M )和基于能量的模
型(E B M
第二类包括非概率(判别
模型,特别是生成对抗网络
G A N GAN
人最小-最大博弈框架来寻
找纳什均衡,从而生成合成
数据
概率模型 非概率模型
*我们在此讨论的生成式人工智能模型仅限于CV领域
生成模型致力于以无监督的方式学习底层数据分布,旨在根据给定信息生成尽可能真实的数据。
它们能够捕捉复杂的细节并展示创造力。从广义上讲*生成模型可以分为两大类
生成对抗网络(GAN),通常称为 GAN因其在数据合成任务中的
卓越性能而受到广泛欢迎。(图像生成,风格迁移
方法:
生成对抗网络
[1] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,in NeurIPS, 2014.
缺陷G A N 经常面临稳定训练的困难,这可能导致不收敛问题。此外G A N 很容易出现一种称
为模式崩溃的现象,即生成器将多个不同的潜在代码映射到同一输出,导致生成的样本缺乏多样
变分推论(VI)是一种近似复杂分布的技术。这个想法是要设置一个参数化的分布族(例如高斯族,其参数是
均值和协方差),并在该族中寻找目标分布的最佳近似。
为了拟合变分概率,采用编码器-解码器架构,利用神经网络通过合并从先验分 z 来参数化数
据分布,通过编码器获得隐空间编码,在经过解码器获得最终表示
方法:
变分自编码器
缺陷:VA E 很容易受到称为后验崩溃的现象的影响,其中学习的潜在空间对于重建输入数据来说
变得无意义。这可能会导致模型的生成能力下降。此外,由于注入的噪声和重建过程中固有的缺
陷,VA E 往往会生成比 G A N 生成的样本更模糊的样本,而 G A N 以其生成更清晰、更真实的样
本的能力而闻名。
[1] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” in ICLR, 2014.
[1] D. Rezende and S. Mohamed, “Variational inference with normalizing flows,” in ICML, 2015.
GA N VAE 都利用参数化模型来隐式学习数据密度,这使得它们无法计算用于
优化模型训练的精确似然函数。为了解决这个限制
变换函数来缓解这个问题。这些函数可以将简单分布(例如标准正态分布)转换
为最终输出所需的概率分布。
标准化流
缺陷:它很难平衡参数化模型的容量和效率。
e v i d e n c e l o w e r b o u n d E L B O
0的条件:分布形式和后验分布相同
Planar Flow
Radial Flow
D e n o i s i n g D i f f u s i o n P ro ba b i l i s t i c M o d e l s D D P M )扩散模型由马尔可夫链参数化,
VA E NF一样,目的是概率建模从噪声到生成图片之间的关系
扩散模型
前向过程
后向过程
特点:由于马尔可夫链长,扩散模型可以合成高质量的数据并允许稳定的训练。然而,值得注意的是,在扩散模
型中推断新样本的计算成本可能很高。扩散模型中的采样过程往往比 GAN VAE
[1] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” NeurIPS, 2020.
生成式模型-总结
04
主流方法
T R A N S I T I O N P A G E
1)共语手势生成
研究动机:现有的共语手势生成方法在同步性和表情丰富性方面存在不足。
解决方案和创新性:采用去噪扩散概率模型来生成与音频同步的共语手势,通过文本、
音频和预设姿势条件来控制生成过程。使用U - N e t 与交叉注意力架构作为去噪模型。
3d数据学习
[1] The KU-ISPL entry to the GENEA Challenge 2023-A Diffusion Model for Co-speech Gesture generation.
2DF- 3 D F a c e (语音驱动的三维人脸动画)
研究动机:传统的3D面部动画方法无法充分捕捉与语音同步的复杂面部属性变化。
解决方案和创新性:采用了扩散机制来捕捉语音和3D面部网格之间的一对多关系,并
引入了新的大规模3D面部网格数据集。
3d数据学习
[1]DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion
3Ta l k C L I P (谈话面部生成)
研究动机:以往的音频驱动的头部动画方法需要匹配风格的参考视频,这在搜索特定风格的视频时存在困难。
解决方案和创新性:构建了一个包含文本注释表情和情感视频的数据集TA- M E A D 。引入基于C L I P 的文本编码
器来对自然语言描述进行编码。使用视频到说话风格(V 2 S S )编码器来提取说话风格代码。开发了一种轻量
级适配器网络来适应C L I P 文本嵌入到说话风格空间。
3d数据学习
[1] TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles.
4音乐驱动的指挥动作生成
研究动机以往的G A N 模型在生成与音乐同步的指挥动作时存在模式崩溃和训练不稳定的问题
解决方案和创新性:应用D D I M D e n o i s i n g D i f f u s i o n I m p l i c i t M o d e l )为基础的方法
现随机遮蔽策略来提高特征鲁棒性。使用几何损失函数来增加动作多样性
3d数据学习
[1] Taming Diffusion Models for Music-driven Conducting Motion Generation
5V i v i d T a l k e r (语音驱动3D部动画生成)
研究动机:从音频输入生成具有自然头部姿势和详细面部表情的3D面部动画具有挑战性,尤其是数据稀缺和面部细节的生成
问题。
解决方案和创新性:构建一个新的3D 3D- V T F S E T 。使用预训练的DECA模型来提取详细的面部形状。采用VQ- V A E
Vector Quantized Variational AutoEncoder)对头部姿态和嘴部运动进行编码。利用基于T r a n s f o r m e r
预测面部细节。
3d数据学习
[1]Breathing Life into Faces: Speech-driven 3D Facial Animation with Natural Head Pose and Detailed Shape
6)音频驱动的动作合成
研究动机:现有的音频驱动运动合成方法在生成与音频同步的复杂人类运动时面临挑战。
解决方案和创新性:使用C o n fo r m e r s 代替扩张卷积,以提高建模能力。通过分类器自
由引导调整风格表达的强度。适应扩散模型来生成与音频同步的人类运动。
3d数据学习
[1] Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models.
7E D G E (可编辑舞蹈生成)
研究动机:现有的舞蹈生成方法在生成逼真、符合物理的舞蹈动作时存在限制,且编辑能力不足。
解决方案和创新性:使用基于T r a n s f o r m e r 的扩散模型结合Jukebox提取的音乐特征。引入关节条件约束和中
间帧插值以实现编辑功能。提出新的物理合理性度量标准,如Contact Consistency Loss,以消除足部滑动
的失真现象。
3d数据学习
[1] EDGE: Editable Dance Generation From Music.
2d数据学习
与直接用形状训练的三维数据监督方法相比,大多数基于二维数据的生
成方法都是通过可微神经渲染的图像监督的,因为很少有用于训练生成
模型的高质量和大规模的可渲染三维表示数据集。大多数方法采用生成
式对抗模型从潜在空间中采样一个潜在向量并将其解码到目标表示
3 D 2 D 3 D
3 D / 线
点云和网格在生成图像合成中没有得到很好的探索,部分原因是目前的
可微神经渲染不能提供有效的梯度信号来轻松地优化这两种表示何时
需要考虑的关键因素
2d数据学习的方法
深度/法线图
D e p t h / N o r m a l M a p s
体素网格
Vo x e l G r i d s
神经场
N e u r a l F i e l d s
混合表示
H y b r i d Re p r e s e n t a t i o n s
深度/法线图
概述:深度和法线图是比较容易的表示方法,部分显示三维场景或对象的几何图形。由
于它们只从一侧显示几何形状,因此它们通常被称为2.5D表示。大多利GAN模型来生成
深度或法线图的三维感知图像合成。下图为gan模型流程
优点:深度和法线贴图可以很容易地参与到图像的生成,因为它们共享与二维图
相似的数据格式。
缺陷:深度和法线图是2.5D表示,不能完全捕捉场景的几何图形
体素网格
概述体素网格中合成图像主要有两种方法。第一种方法是只使用体素网格来表示三维
形状,然后用于渲染深度贴图来指导图像的生成。第二种方法是用体素网格嵌入场景的几何
图形和外观。
原理:将图像生成任务分解为三维形状生成和二维图像生成。它们采用体素网格来生成
形状然后使用一个投影操作符,将体素网格呈现到一个视点下的深度地图中。然后将深度
图作为RGB图像生成的指导。
优势:能够渲染包含多个对象的图像。
缺陷:对于学习一个3D特征体积,平台gan直接预测RGBalpha体积,但仅限于低
分辨率。
神经场
概述:一种基于神经网络的表示方法,用于表示三维空间中的每个点。这种方法通过一
个多层感知器(MLP)网络来隐式地表示每个点的属性,并使用可微分的渲染器输出特定视
角的图像。这种方法在图像合成方面具有较高的生成性能,但需要解决训练过程中的不稳定
性问题。
优势:深度和法线贴图可以很容易地参与到图像的生成,因为它们共享与二维图
相似的数据格式。
缺陷:深度和法线图是2.5D表示,不能完全捕捉场景的几何图形
神经场
原理:
1. 生成高分辨率图像:VoxGRAF采用稀疏voxel grids来代表场景,首先生成低分辨率密集
体积,然后逐步提高分辨率并修剪空隙中的voxels
2. 控制生成过程:GIRAFFEGIRAFFE-HD将场景表示为组合生成神经辐射场,允许独立
控制多个前景对象和背景。DisCoScene还提出了组合生成,但引入了场景布局先验以更好
地解耦和建模场景。UrbanGIRAFFE进一步利用全景布局先验,以额外支持大型相机移动
背景语义。
3. 语义控制:一些工作关注语义控制,例如SceneGraphFusion通过将场景表示为图形
构,允许用户通过编辑图形结构来编辑场景。
混合表示
概述:一种将点云和体素网格相结合的三维表示方法,它结合了体素网格的高效性和
点云的灵活性。这种方法通过将点云投影到体素网格上,然后对体素网格进行
采样和重建,从而实现了对三维形状的高效表示和编辑。
原理:隐式表示可以通过可微渲染,基于二维多视图观察,有效地优化整个三维形状。
因此,许多研究选择将隐式表示集成到生成器中,以使用二维监督实现3D感知
图像合成。由mlp实现的隐式表示具有内存效率,但往往有较长的评估时间。体
素网格和深度等显式表示可以有效地使用cnn,并可用于高分辨率的图像渲染。
通过结合隐式和显式表示,它们的互补优势可以用3Daware的图像合成,潜
在地提高图像质量和渲染效率。
优势:混合表示可以有效地生成高质量的三维感知图像和三维形状
缺陷:训练速度慢,策略待改进。依赖于渐进式训练,这在过渡到另一个框架时带来
了挑战。
06
研究展望
T R A N S I T I O N P A G E
通用性提升现有的3 D 生成模型大多是针对简单的对象级数据集进行训练的
研究可以致力于开发更通用的三维生成模型,包括生成通用对象、动态对象或场景以
及大规模场景,以实现对更广泛类别的生成
可控性改进相比于二维生成模型,目前的三维生成模型在可控性方面还有较大的差
距。未来的研究可以专注于提高用户对3 D 生成过程的 草图
和程序等用户友好的输入来控制生成过程
材料和动力学等
效率提高目前许多3 D 生成模型需要在多个高端G P U
度较慢。未来的研究可以集中于提高三维生成模型的训练效率
提高推理效率以适应下游应用的需求
训练稳定性由于物理上有意义的因素与真实图像的分布可能不匹配目前的3 D 生成
模型训练容易出现模式崩溃。未来的研究需要着重解决生成模型的训练稳定性问题
以确保模型的有效训练和生成稳定的结果
未来方向
应用:TextTo3D
[1] H. Jun and A. Nichol, “Shap-E: Generating Conditional 3D Implicit Functions.” arXiv, May 03, 2023. doi: 10.48550/arXiv.2305.02463.
[2] B. Poole, A. Jain, J. T. Barron, and B. Mildenhall, “DreamFusion: Text-to-3D using 2D Diffusion.” arXiv, Sep. 29, 2022. doi: 10.48550/arXiv.2209.14988
Openai/Shap-E DreamFusion